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摘 要 : AD VLIW DSP 上 ， 指 令 分 繁 是 一 项 对 程序 性 能 有 重要 影响 的 编译 优化 ， 但 现 有 的 指令 分 化 算法 只 能 
处 理 顺 序 的 程序 区 域 ， 且 难以 获得 最 佳 的 分 化 方案 。 针 对 这 些 问题 ， 提 出 一 种 基于 整数 线性 规划 的 统一 指令 分 化 
与 指令 调度 的 方法 。 该 方法 使 用 零 一 决策 变量 表示 函数 中 指令 的 分 系 、 指 令 的 局 部 调度 、 以 及 禾 间 传输 指令 的 全 
局 调度 ， 并 将 指令 之 间 的 依赖 关系 和 对 处 理 器 资源 的 竞争 关系 构造 为 线性 约束 ， 最 终 得 到 一 个 以 最 小 化 函数 的 估 
计 执 行 时 间 为 目标 的 整数 线性 规划 模型 。 实 验 结果 表明 ， 求 解 该 模型 得 到 的 分 化 调 度 方案 对 程序 性 能 的 优化 显著 
强 于 现 有 算法 ， 并 且 求 解 模 型 所 耗费 的 时 间 是 可 接受 的 。 
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Integer linear programming based instruction cluster assignment and schedule of VLIW DSP 
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Abstract: Cluster assignment is a compiler optimization that plays an important role in performance of programs. However, 
the existing algorithms only work on straight-line program area, and is difficult to be optimal. Aiming at these problems, this 
paper proposed a unified cluster assignment and instruction scheduling method based on integer linear programming. This 
method used zero-one decision variables to represent cluster assignment, local instruction scheduling and global scheduling 
of inter-cluster transfer instructions, and formulated dependency and processor resources competition between instructions 
into linear constraints, eventually got an integer linear programming model whose objective is to minimize the estimated 
execution time of the function. Experimental results show that the cluster assignment and scheduling scheme from solving the 
model significantly outperforms the existing algorithms on accelerating programs, and the time required to solve the model is 
acceptable. 
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0 引言 时 进行 指令 的 分 簇 与 调度 [19]。 
m LAKINE AERE trace ARE Ea 

许多 数字 信号 处 理 器 (digital signal processor, DSP) 采 用 支 的 程序 区 域 上 进行 分 能， 不 同 的 方法 之 间 的 主要 区 别 在 于 

超 长 指令 字 (very long instruction word, VLIW) 架 构 来 提高 指 ” 采用 了 不 同 的 启发 因子 确定 指令 被 分 派 的 徐 。 这 些 方法 欠缺 
令 级 并 行 (instruction level parallelism, ILP)。VLIW 架构 DSP 对 全 局 数据 流 的 处 理 ， 忽 视 了 不 同 基本 块 中 的 指令 之 间 的 簇 
一 般 发 射 宽度 较 大 ， 需 要 大 量 的 运算 设备 和 寄存 器 文件 。 间 通 信 开 销 ， 尽 管 在 trace 中 分 簇 考 虑 了 多 个 基本 块 ， 但 在 
所 有 运算 设备 与 所 有 寄存 器 直接 连通 会 使 处 理 器 的 设计 复杂 很 多 程序 中 ， 不 同 分 支 的 跳 转 情况 难以 估计 ， 不 容易 构造 
度 较 高 ， 且 功 耗 较 大 中。 解决 这 个 问题 的 一 个 方法 是 将 运算 trace。 男 一 问题 是 基于 启发 式 决策 的 方法 并 不 能 保证 得 到 最 
设备 和 寄存 器 分 为 多 个 徐 ， 每 簇 中 运算 设备 与 寄存 器 数目 相 优 的 分 簇 方案 ， 启 发 式 方法 的 优点 在 于 算法 执行 速度 快 ， 但 
同 ， 秘 内 的 运算 设备 能 直接 访问 内 部 寄存 器 文件 ， 不 同 艇 2 在 DSP 的 应 用 领域 中 ， 耗 费 更 多 的 编译 时 间 ， 实 现 更 好 的 
间 通 过 总 线 连通 ， 跨 簇 访问 数据 需要 将 其 他 秘 的 数据 复制 到 分 复方 案 ， 获 得 更 高 的 执行 性 能 往往 是 可 以 接受 的 。 


本 地 复 内 。 这 样 的 分 复 架 构 中 ， 复 内 的 数据 访问 延迟 低 ， 功 组 合 优化 是 一 类 寻找 问题 最 优 解 的 方法 ， 其 中 整数 线性 
耗 低 ， 而 不 同 艇 之 间 的 数据 访问 延迟 高 ， 功 耗 高 。 规划 是 一 种 形式 简单 ， 但 被 广泛 使 用 的 方法 ， 在 编译 优化 领 


在 分 簇 架 构 的 处 理 器 上 ， 需 要 确定 指令 使 用 哪 一 个 徐 的 ” 域 中 也 有 不 少 应 用 ， 例 如 指令 调度 > 拉 、 超 字 并 行 09。 考 
运算 资源 ， 这 一 操作 称 为 分 艇 (cluster assignment)。 在 一 些 虑 到 当前 的 分 簇 算法 的 不 能 保证 最 优 的 现状 ， 使 用 整数 线性 
早期 的 处 理 器 上 ， 分 簇 由 硬件 自动 完成 ， 例 如 文献 [2]， 在 ” 规划 进行 分 艇 ， 进 一 步 提 高 指令 分 艇 的 质量 是 比较 好 的 选择 。 
MARAI AE VLIW DSP 上 ， 分 簇 由 编译 器 完成 ， 例 如 由 中 国 本 文 的 主要 贡献 为 : 提出 了 一 种 VLIW DSP 上 的 指令 分 
电子 科技 第 38 研究 所 研发 的 HXDSP。 分 秘 的 目的 是 让 程序 。” 艇 与 调度 的 整数 线性 规划 建 模 方法 ， 将 整个 函数 中 每 条 指令 
充分 利用 不 同 艇 上 的 运算 资源 ， 同 时 避免 过 多 的 簇 间 通信 ， 的 分 艇 ,每 个 基本 块 的 指令 调度 ， 以 及 分 簇 导 致 的 簇 间 传 输 
从 而 提高 程序 的 指令 级 并 行 度 ， 这 使 得 分 簇 与 指令 调度 这 项 指令 的 插入 位 置 和 调度 ， 表 示 为 一 个 整数 线性 规划 模型 。 相 
编译 优化 紧密 相关 。 在 早期 的 工作 中 ， 分 簇 是 一 项 独立 的 优 — 比 于 现 有 的 分 艇 方法， 本 文 的 方法 以 函数 为 单位 进行 分 簇 ， 
化 5-1， 分 簇 完成 后 再 进行 指令 调度 ， 更 近 的 一 些 工 作 则 同 ” 解决 了 全 局 数据 流 之 间 的 簇 间 传输 指令 的 插入 问题 ， 并 且 求 
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Hp 4» HH 


xx np rm 


进行 了 一 些 改进 
个 部 件 内 部 并 行 度 较 1 
算 完成 时 刻 有 
存在 于 不 同上 
从 而 实 
价 过 大 。 
Desoli 等 人 GJ 采用 了 一 个 多 
类 似 BUG 的 算法 得 到 


首先 采用 


录用 定稿 


解 得 到 的 分 簇 调度 方案 是 (在 估计 的 代价 模型 下 ) 最 优 的 ， 此 
方法 可 以 直接 实现 在 其 他 程序 


区 域 上 ， 例 如 只 考虑 循环 内 部 


的 代码 ， 基 本 块 ， 或 者 trace 
域 上 时 ， 执 行 时 间 可 以 准确 地 评估 ， 得 到 的 分 艇 
是 真正 上 最 优 的 。 

最 早 的 指令 分 簇 方法 由 


并 将 数据 传输 到 流 依 赖 后 继 所 在 的 候选 艇 的 最 晚 时 刻 。 
BUG 算法 从 每 个 无 后 继 的 扫 
数据 流 图 ， 每 次 选择 使 指令 完成 时 鼠 


当 实 现在 无 分 支 的 程序 


Ellis 等 人 在 Bulldog 编译 器 中 中 
实现 ， 称 为 BUG(bottom up greedy) 算 法 ， 此 方法 基于 
为 完成 时 刻 (completion cycle) 的 启发 
于 某 个 艇 的 完成 时 刻 定义 为 : 将 指令 分 派 到 该 簇 执 行 完成 后 ， 


THET, MER FEFEFE RS H 


A m, 等 : 基于 整数 线性 规划 的 VLIWDSP 指令 分 徐 调 度 


度 > 发 射 宽度 X2( 艇 | 
时 刻 减 去 最 早 调度 时 六 

则 选择 使 指令 完成 时 刻 最 小 的 分 簇 。 
E 林 等 人 091 则 使 用 模拟 退火 算法 进行 分 簇 与 调 
周 度 后 的 时 钟 周期 作为 反馈 ， 迭 代 的 提高 分 贸 质 量 


Rf REYS-1), A3 
几时 选择 使 3 
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[ 作 将 分 复 与 循环 的 模 调 度 一 同 实 
令 的 分 徐 ， 例 如 文献 [17， 
能 ， 但 循环 软件 流水 要 求 循 环 内 无 分 支 ， 或 者 
分 支 情况 比较 简单 ， 能 使 用 If-ConversionL1 转 换 为 谓词 指令 


点 开始 ， 道 向 深度 优 有 
| 最 小 的 篮 作 为 当前 指 


I% 
内 Ju 


的 候选 秘 ， 依 次 对 所 有 依赖 前 
再 将 当前 指令 分 派 至 


BUG 算法 贪心 地 分 入 
的 指令 分 派 到 同一 个 簇 ， 
能 导致 首次 深度 优先 遍历 数 
的 指令 分 散 到 不 同 艇 。 


基于 最 小 化 完成 时 间 


Lowney 等 人 四 在 实现 BUG 算法 时 


FKP, RERIK. 


的 方法 实现 在 编译 器 令 选择 之 后 ， 
图 
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以 整个 函数 为 输入 ， 函 数 表示 为 控制 流 
依赖 图 。 
整数 线性 规划 指 变量 取 值 为 整数 的 线 怕 
给 定 一 系列 整数 变量 *= za…x 7 ， 称 为 决策 变 
中 一 系列 不 等 式 Ax2b, UA toot 20 ARTE I. ERKE 


(d 居 流 图 分 为 多 个 部 件 ， 每 


k 享 度 高 ， 在 BUG 算法 中 计 


T, £ 
HRF, 


刻 上 施加 一 个 较 大 的 惩罚 


函数 cx 最 小 ， 其 中 A 是 一 个 实数 矩阵 ， 
决策 变量 仅 取 值 为 0 或 1 的 整数 线性 规划 称 为 零 一 规划 
一 种 常见 的 建 模 方式 。 
本 文中 指令 分 簇 与 调度 都 使 用 零 一 规划 来 到 


岗 阁 干 相关 的 部 件 分 派 到 同一 个 徐 ， 避 免 禾 间 通 


A 
HSH 


的 迭代 算法 实现 分 簇 ， 
HIA. [ELATI PCR 


， 基 本 块 执 行 时 间 使 / 


是 最 小 化 簇 
执行 时 钟 周 期 数 ， 寄 存 器 月 
稳定 。 列 表 调 度 是 最 为 广泛 使 用 
些 启发 因子 ， 例 如 指令 在 数据 依赖 图 中 下 


间 通信 H 


调整 分 艇 ， 直 至 


策 变量 以 及 相关 符号 见 表 1， 约 束 规则 可 
现 次 数 约束 、 资 源 约束 和 依赖 约束 ， 优 化 目标 为 
本 块 执行 时 间 的 带 权 和 ， 权 值 为 基 


最 后 


也 度 为 指令 最 迟 调度 
FAR ZAR. d 


Hu 
此 


见 ， 在 对 循环 软件 流水 化 


18]， 这 些 方 法 能 有 效 的 


寄存 器 分 配 之 前 ， 
， 每 个 基本 块 表示 


在 满 


“是 一 个 实数 向 量 。 
是 


ER, EHR 
[以 粗略 地 分 为 三 类 ， 


本 块 的 估计 执行 次 
条 指令 的 发 身 
表 1 文中 主要 符合 及 其 表示 意义 
Tab.1 Symbols in this paper and its meaning 
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等 ， 对 数据 依赖 图 进行 带 优 
依次 尽 可 能 早 的 发 射 每 一 条 指令 。 
Lapinskii 等 人 [9] 


的 方法 按照 最 迟 调 


人 述 调度 时 刻 与 最 


chinaXiv 


度 时 刻 之 差 )， 数 据 流 


素 对 指令 排序 ， 


顺序 访问 每 条 指令 ， 将 指令 分 派 


I 使 计算 设备 使 用 


， 总 线 使 用 代价 ， 艇 间 通 信 代 价 的 带 权 


最 小 的 徐 。 在 完成 初步 分 艇 后 ， 此 方法 迭代 
缘 指 令 ( 与 其 他 簇 存 在 通信 的 j 
到 其 他 簇 能 否 得 到 更 优 
Ozer 等 人 [首次 提 昌 
7j UAS(unified as 
的 框架 下 进行 ， 术 
(UAS 称 为 
称 为 开始 时 刻 (Start Cycle)， 当 前 指令 


指令 ) 进 行 “扰动 ” 


tH 了 统一 指令 分 艇 与 i 
signment and scheduling). U 
指令 的 数据 流 依赖 前 驱 指令 

completion-weighted predecessor, CWP), E BUG 
于 始 时 刻 等 于 依赖 前 


驱 完 成 时 辫 


刻 都 不 超过 给 定 的 上 界 ) 


1 的 最 大 值 ) 决 定 当 前 待 调度 指令 
尽 可 能 早 的 发 射 当 前 指令 和 其 所 需 的 簇 间 传 输 指 令 。 
HÉJ CARS 代码 生成 框架 
实现 了 统一 了 指令 分 簇 和 调度 ， 以 及 寄存 器 分 配 站 
CARS 中 ， 指 令 分 簇 依然 采 
Zhang 5$& ADI H 


RES (i,k,r) 


Kailas 5& AUI H 


xvm, m,) 


了 开始 时 刻 作 为 分 簇 的 
了 一 个 精心 构造 的 
lmax-succesor-tree-consistent deadline， 定 义 为 对 指令 及 其 所 
有 后 继 的 任意 一 种 可 行 的 分 簇 调度 方案 (每 条 指令 的 发 射 时 
PF 该 指令 的 最 晚 的 执行 完成 时 间 。 


启发 因子 ， 称 为 


(就 绪 指令 数 


这 个 方法 在 列表 调度 框架 
令 ， 将 其 分 派 到 能 


完成 时 刻 作 为 启发 


零 一 变量 ， 指 示 指 令 i 是 否 被 分 派 到 编号 为 m Ni. 


i 为 函数 中 任意 需要 分 簇 的 指令 (如 跳 转 ，NOP 等 指 


邻 不 需要 分 簇 ), 1<m<M 。 
零 一 变量 ， 指 示 基本 块 B H 
射 。8 为 函数 中 的 


零 一 变量 ， 指 示 基 本 块 B 中 时 刻 1 是 否 被 占 
4 任意 基本 块 ，1<r<7(B) 。 
是 否 被 分 派 到 同一 个 艇 。 
农 赖 或 输出 依赖 的 指令 。 


零 一 变量 ， 指 示 指 令 ij 
Lj 为 任意 两 个 存在 反 


1<1<7T(B) 。 


基本 块 B 的 执行 次 数 } 
基本 块 B 中 的 非 饼 间 传 输 
所 有 可 能 的 簇 
指令 i 在 流水 线 第 Kk 阶段 占 


基本 块 B 中 


基本 块 B 执行 


标 平台 中 簇 的 数目 。 
的 时 钟 周期 数 的 一 个 估计 上 界 。 


VLIW 长 度 。 


标 机 器 中 资源 7 的 数目 
将 变量 v JR m fedi SUAE m 的 驴 间 传输 


P 的 指令 i 是 在 时 3 


任意 基本 块 ， 


间 传 输 指令 旨 


整数 规划 中 关于 决策 变量 的 表达 式 ， 值 为 指 信 


cluster(i) 


整数 规划 中 关于 决策 变量 的 表达 式 ， 值 为 基本 块 B 


cycle( B,i 
ii P484 i n odd 


H 


的 簇 编号 。 


EE 
所 在 


时 刻 。 


SERIE, PHERI 
Porpodas 等 人 09 提 出 的 LUCAS 算法 综合 了 开始 不 
因子 ， 在 列表 调度 框架 下 ， 当 


> 发 射 宽度 X 簇 间 通 信 延 迟 ) 或 高 松弛 度 (松弛 


考虑 任意 变量 v， 它 可 能 


同 簇 而 出 现在 不 同 艇 ， 使 用 


pe 整数 规划 中 关于 决策 变量 的 表达 式 ， 取 值 0 或 1， 指 
示 艇 间 传 输 指 令 x 是 否 在 出 现 基本 块 中 。 
复 间 传输 指令 


为 为 定义 它 的 指令 被 分 派 到 不 


的 指令 也 可 能 被 分 派 到 其 他 不 
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终点 有 多 条 入 边 ， 则 需要 在 该 边 上 构建 一 个 新 的 基本 块 ， 阁 


录用 定稿 


司 的 徐 ， 因 此 需要 簇 间 传 输 指令 来 传递 »。 传 输 变 量 v 所 有 


JE M, F: 基于 整数 线性 规划 的 VLIWDSP 指令 分 比 调 度 


可 能 的 复 间 传输 指令 xm m) 共有 MM -D 种 。 这 些 簇 间 传 ” 该 边 是 直接 下 落 边 ( 即 前 后 两 个 基本 块 地 址 连续 )， 那 么 新 插 
输 指令 可 能 被 调度 到 定义 与 使 用 v 之 间 的 任意 一 条 路 径 上 的 。 入 的 基本 块 为 空 基 本 块 ， 否 则 其 中 应 当 存 在 一 条 跳 转 指令 ， 
任意 基本 块 中 ， 为 了 表示 这 些 调度 结果 ， 对 于 每 种 徐闻 传输 ” 跳 转 目 标 是 该 边 的 后 继 ， 这 条 跳 转 指令 是 否 出 现在 最 终 的 
指令 xv. m.m) ， 在 这 些 路 径 中 的 每 个 基本 8 中 ， 决 策 变量 。 标 代码 中 依赖 于 新 的 基本 块 中 是 否 有 簇 间 传 输 指令 ， 而 若 起 


Tomi 都 有 定义 。 点 只 有 一 条 出 边 或 终点 只 有 一 条 入 边 ， 那 么 通 间 传输 指令 可 


例如 ， 对 于 图 1 的 控制 流 图 ， 定 义 使 用 变量 "的 路 径 包 以 插入 在 起 点 块 或 终点 块 中 ， 插 入 在 新 构建 的 块 上 只 会 带 来 
fí, A—E, A 一 E 一 F, B>C>E, B—C-E-F, B—D-F ix 5 更 大 的 开销 。 
条 路 径 ， 因 此 在 A、B、C、D、E、F 上 关于 传递 v 的 簇 间 传 
输 指令 的 决策 变量 7 都 应 当 有 定义 ， 否 则 无 法 表达 所 有 可 能 | Il: write v I2: write v Es B. Duy 
的 徐 间 传输 指令 插入 方案 ， 图 2-4 ton T JUPE E E ARI E 


BN | 


输 指令 插入 方案 (图 中 艇 间 传 输 指令 形 如 Xv = YY， 表示 将 v 


Ak Y 传递 到 X)， 可 见 簇 间 传 输 指令 可 以 出 现在 图 中 每 个 C D c D 
I3: read v I4: read v I3at X I4atY 
基本 块 中 。 
- Cp | 图 5 控制 流 图 6 执行 多 余 指 令 的 情况 
12: write v Lay Fig. 5 Control flow graph Fig. 6 Case of execution 


redundant instruction 


N 
> 
a 


NE C Il at X Zv- Y A 
WY 7 m T lax Daty | /N 
D: read D E D Dux acad Day 
BatZ| | Tv=w D | 了 X / 
\ ue z 
F l4 at Y Mat Y 
14: read v " a T 
7 引起 数据 错误 的 情况 8 秘 间 传输 指令 插入 在 
图 1 控制 流 图 图 2 一 种 分 簇 与 徐 间 传输 Fig.7 Case of data error 新 的 基本 块 中 的 情况 
Fig. 1 Control flow graph E lA 7; S& Fig. 8 Case of inter-cluster 


Fig.2 Acluster assignment and 


inter-clustertransfer 


instructions insertion scheme 


- 3 AR 
Xv pax 31 指令 出 现 次 数 约束 


transfer instruction inserting 


in new basic block 


最 基本 的 ， 待 分 簇 的 指令 必须 且 只 能 被 分 派 到 一 个 簇 中 ， 


| | [e 对 于 任意 待 分 侯 指 令 ; ， 有 如 下 约束 规则 ; 
Il at X 
N / w / È Pn =1 (1) 
E E D nel 
wxj |» A / 在 此 约束 的 保障 下 ， 根 据 零 一 变量 的 特性 ， 指 令 i 被 分 
VZ - ARI UR SET EA 
Zv = Xv M 
" A Z l4at Z cluster(i) := 2m X Pim (2) 
图 3 — PIR RE 图 4 PIR R P []38, RORA ÆR B 中 的 任意 i 必须 且 只 能 被 
传输 指令 插入 方案 指令 插入 方案 调度 到 某 一 个 时 钟 周期 : 
Fig.3 A cluster assignment and Fig.4 A cluster assignment and Y 1 Q) 
Thit = 
inter-cluster transfer instructions inter-cluster transfer instructions 本 
insertion scheme insertion scheme 基本 块 s 中 指令 i 被 调度 的 时 钟 周期 可 以 记 为 
但 簇 间 传输 指令 只 出 现在 输入 函数 中 己 有 的 基本 块 中 并 Ey 


cycle(B,i) := > LX (4) 
t-l 


PRE dr 38 S A VA EE RO E KR T SE E TEC RU xg SC f 
用 的 指令 的 分 簇 情况 ， 可 以 总 结 为 以 下 四 条 规则 : 

对 于 任意 变量 "”， 当 任意 两 条 读 写 变量 "的 指令 ”7 被 分 
派 到 任意 不 同 的 两 个 簇 m,m E, SIR] Pedir dE xum m) 必 


不 一 定 是 最 优 方案 。 考 虑 如 图 S 所 示 的 控制 流 图 ， 当 Ib 和 
I4 被 分 派 到 不 同 簇 时 ， 若 将 簇 间 传 输 指令 插入 在 A 中 则 会 
导致 在 程序 执行 路 径 为 A 一 C 的 情况 下 会 执行 一 条 多 余 的 指 
令 ， 如 图 6 所 示 ， 而 若 插入 在 D 中 ， 则 当 程 序 执行 路 径 为 B 
一 D 时 ， 则 执行 该 篮 间 传输 会 导致 数据 错误 ， 如 图 7 所 示 。 


m 


cH LORD JS SEC DIS dit HR TENES A 一 D 之 。” 须 在 它们 之 间 的 每 条 路 径 P 中 的 某 个 基本 块 内 被 调度 。 容 易 
闻 新 构建 的 基本 块 中 ， 如 图 8 所 示 ， 确 保 仅 在 程序 执行 该 路 。 ”验证 ， 此 约束 可 以 表示 为 如 下 形式 : 

径 时 伐 间 传输 指令 才 会 被 执行 。 尽 管 这 样 可 能 新 的 引入 跳 转 ys pnn 
令 ， 导 致 较 长 延迟 ， 但 车 存 较 多 的 秘闻 传输 指令 插入 ， 重 ee nac 

复 执行 无 用 指令 浪费 的 时 钟 周期 可 能 更 大 。 这 条 约束 使 鲜 间 传输 指令 总 是 从 定义 变量 的 指令 所 在 的 


重复 执行 与 额外 的 跳 转 开 销 之 间 的 权衡 会 在 整数 线性 规 。 簇 读 取 数据 ， 排 除了 簇 间 传 输 指令 “接力 ”传递 的 情况 。 尽 
划 求 解 中 得 到 最 佳 的 选择 ， 但 必须 保证 解 空 间 中 存在 这 样 的 。 管 “接力 ”方案 也 是 合法 方案 ， 但 在 大 多 分 艇 VLIW DSP E, 
方案 。 因 此 ， 对 于 任意 控制 流 图 的 边 ， 若 其 起 点 有 多 条 出 边 ， “接力 ”方案 不 可 能 是 唯一 的 最 优 方案 。 从 数据 流 依赖 情况 
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来 看 ， 簇 间 传 输 指令 从 其 他 艇 间 传 输 指令 的 结果 中 读 取 数 据 
的 最 时 发射 时 刻 总 是 晚 于 直接 从 定义 变量 的 指令 所 在 的 艇 读 
取 数 据 。 从 资源 占用 方面 来 看 ， 只 有 簇 间 传 输 指令 占用 簇 间 
传输 总 线 这 一 机 器 资源 ， 且 簇 间 传 输 指令 只 占用 该 资源 ， 
此 ， 无 论 簇 间 传输 指令 从 哪个 簇 读 取 资源 ， 其 资源 占用 情况 
都 对 非 篮 间 指令 不 构成 竞争 关系 ， 不 会 在 资源 方面 影响 调度 ， 
另 一 方面 ， 由 于 总 线 的 特性 ， 只 有 从 同一 个 复读 取 同 一 数据 
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这 一 项 依赖 在 本 文中 简称 为 控制 依赖 ， 值 得 一 提 的 是 ， 广 泛 
使 用 的 术语 “控制 依赖 ”有 另外 的 意义 P1。 

依赖 约束 是 指 ， 存 在 数据 依赖 或 控制 依赖 的 两 条 指令 在 
被 调度 后 ， 两 者 所 发 射 的 时 刻 之 差 应 该 大 于 等 于 依赖 延迟 。 
基本 块 B 中 ， 指 令 ij 之 间 的 依赖 若 与 艇 内 寄存 器 无 关 ， 
或 是 控制 依赖 时 ， 依 赖 约束 可 以 统一 表示 为 


cycle(B,i) — cycle(B, j) 2 L (1 3) 


的 簇 间 传 输 指令 可 能 在 同一 个 周期 发 射 ， 因 此 所 有 簇 间 传 输 
指令 全 都 从 定义 变量 的 指令 所 在 的 复读 取 数 据 能 得 到 的 结果 
总 是 优 于 或 等 于 多 个 禾 间 传输 指令 接力 的 情况 ， 因 此 ， 此 约 
束 并 不 会 限制 降低 分 簇 质 量 。 

对 于 任意 变量 v， 设 定义 它 的 指令 为 i， 在 控制 流 图 中 ， 
任意 一 条 从 i 到 使 用 v 的 指令 的 路 径 P E, NUT TERR m, 
仅 当 指令 i 没有 被 分 派 到 簇 m 时 ， 将 数据 传输 到 m ERE 


输 指 令 才 允许 出 现 ， 且 最 多 在 某 个 基本 块 中 某 个 时 刻 出 现 一 
次 。 此 约束 为 
T(B) 
Pim + 2 2 25. TB (vm mt < 1 (6) 


3x — RAS BEBR E T E — ^ 28 58 A R e d 8 e 
HMK, AHRR T EARAITI Ere EIS RIA ER 
中 的 变量 写 入 数据 的 不 合法 方案 ， 如 图 7 的 情况 。 
在 定义 、 使 用 变量 v 的 任意 一 条 路 径 上 的 每 个 基本 块 8 
中 ， 只 有 当 使 用 v 的 指令 j 被 分 派 到 簇 mw 时 ， 才 允许 簇 间 向 
m 传输 数据 的 传输 指令 xs umm 在 该 基本 块 中 出 现 : 


T(B) 


b» Tpa(v, m) S Pjm (7) 


同 理 ， 在 定义 、 使 用 变量 v 的 任意 一 条 路 径 上 的 每 个 基 
本 块 B 中 ， 只 有 当 定 义 ” 的 指令 被 分 派 到 能 严 时 ， 才 人 允许 
ERIM m 传输 数据 的 传输 指令 xem. D 在 该 基本 块 中 出 现 ; 


r 
上 上 


TB) 
2 T5a(v m. )t S Pim (8) 

簇 间 传 输 指令 x 是 否 出 现在 基本 块 8 可 以 记 为 
occur(B,x):= Y [2 (9) 


其 中 工 表 示 依 赖 延迟 ， 在 VLIW DSP 中 ， 一 般 控制 依赖 、 反 
依赖 为 延迟 为 0， 输 出 依赖 为 1， 流 依赖 与 流水 线 长 度 有 关 。 
当 反 依赖 或 输出 依赖 由 簇 内 寄存 器 传递 时 ， 若 依赖 的 前 
驱 或 后 继 被 分 派 到 不 同 的 簇 时 ， 则 依赖 自然 地 被 消除 ， 依 赖 
的 前 后 两 条 指令 可 以 任意 调度 ， 否 则 就 需要 满足 延迟 约束 ， 
两 种 情况 统一 的 约束 规则 可 以 用 大 M 法 如 下 表示 : 
cycle( j) - cycle() - 27(B)0 - 6, ;) 2 L (14) 
s 表示 指令 Lj ERRORI ADR, E VEDO fa 
要 添加 如 下 约束 来 得 到 保证 : 
aj +ô; tb =1 
cluster(i) —cluster( j) 2 —Ma, ; * b; ; (15) 
cluster(i) — cluster(j) € Mb; , a; ; 
上 式 中 还 引入 了 两 个 辅助 的 零 一 变量 wua, ， 分 别 表示 
Lj 之 间 簇 的 编号 关系 是 小 于 或 大 于 。 
流 依赖 涉及 簇 间 传输 指令 ， 考 虑 指令 i 分 别 定义 、 使 
用 变量 v， 对 于 任意 艇 mm , H xmm) 被 调度 到 i 所 


在 的 基本 块 3 的 某 个 时 刻 ， 且 i 被 分 派 到 簇 m， 才 有 
xvm m) 流 依 赖 于 i， 即 : 

cycle(B, x(v, m, ,m;)) — cycle(D,i) + 

2T(B)(2 —occur(B, x(v, m,m, ))— Pim ) (1 6) 


> Liow 
同 理 ， 仅 当 xomm) 被 调度 到 J 所 在 的 基本 块 ， 且 j 被 
DIES m, J AMRF xomm), H: 
cycle(B, j) — cycle(B, x(v, m,m, )) + 
2T(B)(2 —occur(B, x(v, m,,m;)) — Pim ) (1 7) 


2 Liow 


24 5j fg fi] — "AE AS BE, A EREDA E] — I 


在 任意 一 个 新 插入 的 基本 块 B 中 ， 只 可 能 存在 艇 间 传 输 
前 令 和 一 条 跳 转 指令 7 ， 当 存在 其 他 簇 间 传输 指令 被 调度 ， 
跳 转 指令 J 必须 在 B 中 被 调度 ， 此 约束 可 以 表示 为 如 下 形式 : 


T(B) 
T(B) >》 Tsj > > occur(B,x) (10) 
tal xeX (B) 


反之 ， 若 8 PARFEME Me 可 以 整个 删 去 ， 
这 一 条 规则 不 需要 表达 成 约束 ， 因 为 多 一 条 跳 转 指令 不 可 能 
是 最 优 解 ， 会 在 求解 过 程 中 被 排除 掉 。 

同一 周期 发 射 的 指令 数目 不 能 超过 VLIW 长 度 ， 对 于 
基本 块 B 中 的 调度 ， 在 任意 时 刻 +， 有 : 


T(B) 


之 Tp ja € rg, (11) 


上 式 除 了 约束 同一 时 钟 周期 发 射 的 指令 条 数 ， 也 确保 若 
时 刻 :存在 指令 发 射 ， 变量 %, 为 1。 但 这 并 不 够 ， 为 了 正 
确 统计 基本 块 B 中 指令 调度 结果 中 最 后 一 条 指令 的 发 射 时 刻 ， 
必须 确保 流水 线 停顿 的 周期 :对 应 的 变量 m4 也 为 1， 还 需 
要 增加 如 下 约束 : 

V2St ST(B):5,4 Z Nga (12) 
此 约束 也 使 得 指令 总 是 被 调度 到 最 早 的 连续 若干 个 时 钟 
周期 。 
3.2 ”依赖 约束 

基本 块 中 指令 之 间 的 依赖 关系 包括 三 种 数据 依赖 ， 分 别 
是 流 依赖 ， 反 依赖 输出 依赖 ， 另 一 项 依赖 关系 是 ， 基 本 块 中 
其 他 所 有 指令 不 能 在 跳 转 指令 ( 若 存 在 ) 之 后 执行 ， 简 单 起 见 ， 


zl 


它们 存在 流 依 赖 ， 因 此 需要 添加 同 式 13 一 样 的 约束 ， 只 是 
将 不 等 式 中 的 延迟 换 成 流 依赖 的 延 人 运 ， 若 它们 被 分 派 到 不 同 
的 簇 , 则 它们 之 间 必 然 存 在 徐 间 传输 指令 ， 约 束 16, 17 确保 
了 它们 的 延迟 关系 能 得 到 满足 。 
3.3 资源 约束 

合法 的 指令 调度 还 必须 满足 : 对 于 机 器 中 的 任意 资源 ， 
譬如 ALU， 立 即 数 通道 等 ， 在 任意 时 刻 执行 的 指令 使 用 的 
每 一 类 资源 不 能 超过 机 器 限制 。 指 令 i 在 流水 线 第 k 阶段 使 
用 的 资源 7 的 数目 记 为 RESG,k,r) ， 大 多 数 情 况 下 资源 冲突 只 
会 发 生 在 少数 流水 线 阶段 ， 不 同 的 指令 可 能 会 在 占用 资源 的 阶 
段 也 可 能 不 同 ， RESG.k. 只 在 这 些 会 冲突 的 阶段 上 有 定义 。 
DIE DSP 的 资源 可 以 被 划分 为 两 类 。 一 类 是 全 局 资源 ， 
整个 DSP 共用 的 ， 指 令 使 用 该 资源 的 情况 与 指令 所 在 的 
EEK; 男 一 类 是 簇 内 资源 ， 只 能 由 簇 内 的 指令 使 用 ， 且 每 
个 艇 拥有 相同 数目 。 值 得 注意 的 是 ， 簇 间 数 据 总 线 也 是 簇 内 
资源 ， 表 示 为 每 个 簇 中 的 若干 个 读 写 端口 。 

考虑 基本 块 B 的 调度 ， 对 于 全 局 资源 r+ ， 在 任意 时 刻 1 
执行 的 所 有 指令 使 用 资源 + 的 总 和 不 超过 机 器 限制 ， 有 : 

之 之 75,4 X RES(,k,r) &M(r) (18) 


RARE. HENES LI EUR IE. 25 rA] 
总 线 的 读 端 口 时 ， 对 于 任意 艇 m， 仪 有 从 mm 读 取 数 据 的 簇 
间 传 输 指令 会 占用 ， 设 在 可 能 在 8 中 被 调度 的 这 些 簇 间 传 输 
HI XG.m 2, ， 艇 间 传 输 指令 使 用 总 线 的 约束 如 下 : 
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ieX (Ban, | 


类 似 的 ， 当 资源 "是 簇 间 总 线 的 写 端 口 ， 对 于 任意 艇 mm， 


设 在 可 能 在 8 中 被 调度 的 、 目 标 是 m 的 簇 间 传输 指令 为 


X(B,_,m) ， 约 束 为 


2 Dr 


ieX (B, m 


对 于 簇 内 的 


) kst 
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xa X RES (x,k,r) < M (r) 


) ket 


«k X RES (x,k,r)< M (r) 


Hors. UE A E RT 


身分 派 的 艇 有 关 ， 资 源 约束 为 


> Dp ^ts X RESG kr <M (r) 


ieX (B, m) ke 


QÉ 


(19) 


Q0) 


Q1) 


上 式 中 的 ^ 表示 零 一 变量 的 逻辑 合 取 ， 通 过 引入 额外 的 一 
个 零 一 变量 ， 并 添加 约束 22^P>a+B,(a^B)<a,(a^B)<B 得 


到 线性 表达 。 


4 ”优化 目标 


A As VA BERE Hs 


时 间 是 不 可 判定 问题 


IE 
L1 


» 78 


指令 的 发 射 时 刻 为 


设 输入 的 函数 为 ， 优 化 目标 为 


T(B) 


YwaoYm. 


W(B) 28 


的 回 边 外 ， 


执行 次 数 : 
忽略 控制 流 图 中 


段 设 跳 转 指令 的 分 支 概率 相同 。 设 分 簇 诬 
数 的 控制 流 图 是 可 规约 的 ， 本 文采 取 如 下 方法 估计 


的 回 


的 块 ， 除 了 


环 


甬 数 执行 时 间 最 短 ， 但 程序 的 执行 
能 近似 。 基 本 块 在 前 文 约束 的 保证 
令 


(22) 


(23) 


在 没有 其 他 信息 的 情况 下 ， 估 计 基 本 块 B 的 执行 次 数 
于 一 个 直观 的 原则 : 处 于 循环 中 的 基本 块 ， 循 
次 越 告 内， 执行 次 数 越 大 ， 远 远大 于 循环 外 


N n 


循 


Ha 
x 


本 


本 
om 


Bu 


边 ， 若 在 新 插入 的 块 在 回 边 上 


的 函 
块 的 


t — 


广度 优先 遍历 控制 流 


Z] 


SJ] s 


基本 块 的 出 边 平分 基本 块 的 次 


基本 块 的 执行 次 数 等 于 入 边 次 数 之 和 。 


识别 流 图 中 的 
设 基本 块 (或 边 ) 被 包 


然 循 3 


; 
* 


5 ”其 他 细节 
5.1 


处 理 函 数 调 用 指令 


P» TH 


出 于 简化 表达 的 目的 ， 上 文中 线性 整数 规划 建 模 忽 


PK iiil 
赖 于 被 调 


的 函数 ， 


可 数据 ， 
能 准确 的 表达 这 种 | 


无 法 


寄存 器 中 的 数据 已 准备 好 ， 即 使 下 一 条 1 
不 需要 再 等 待 流 依赖 延迟 ， 前 文中 的 依赖 约 
青 况 。 将 函数 指令 看 


指令 这 一 特殊 情况 。 函 数 调用 指令 实际 执行 时 


判断 ， 并 且 当 函数 返回 时 ， 返 


同 忽 略 该 块 ， 将 控制 流 图 的 入 口 块 为 执行 次 数 设 为 W=1， 


数 ， 


有 相同 首 节 点 的 循环 。 
E 循 中 的 次 数 为 x ， 那 么 该 块 (或 边 ) 
的 次 数 估 计 为 100W， 循 环 的 回 边 平分 回 边 的 起 点 的 权 值 ， 
习 边 上 插入 的 基本 块 的 执行 次 数 等 于 该 边 的 执行 次 数 。 


ET 
间 依 
可 值 


指令 要 使 用 函数 


夏 基 本 块 边界 能 


这 一 问题 ， 但 会 稍微 错失 一 点 并 行 机 会 ， 另 一 个 方法 是 


数 调 用 指令 的 发 射 占 


用 多 


样 当 函数 调用 指令 执行 完 后 所 有 依赖 它 的 指令 都 已 满足 延迟 ， 
改变 前 文 的 建 模 方式 。 
条 指令 发 射 时 刻 的 计算 不 精确 ， 但 是 
即 对 程序 执行 时 间 的 近似 。 
射 占 用 的 第 2 到 工时 钟 周 基 
站 令 为 c<， 这 项 约束 为 


能 直接 发 射 ， 不 
化 目标 中 对 最 后 
影响 最 终 目 的 ， 
函数 调用 


指令 占用 ， 设 基本 块 


人 


个 时 钟 周 期 ， 等 于 最 大 延迟 L 


B® 


尽管 这 样 做 会 


的 返 
束 不 
绕 过 
LEPKI 
， 这 


使 优 


在 这 种 方法 


不 
下 ， 


， 不 应 该 有 


其 他 


的 函数 调用 


VIxtxT(B)-L: 


t+L-1 
u 


> onus S077) T(O)N 


u-t ieB^isc 
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5.2 ”优化 求解 速度 

于 DSP 的 各 艇 都 是 同 构 的 ， 所 以 存在 许多 对 称 的 分 
艇 方案 ， 破 除 这 些 对 称 往往 能 加 快 整 数 线性 规划 求解 ， 思 路 
为 尽量 将 指令 分 派 到 艇 编号 较 小 的 和 能。 可 以 通过 添加 如 下 约 
束 不 等 式 来 实现 目标 : 


V2Sm<M:Y p, 23 Pim Q5) 
ieF ieF 
基本 块 8 中 每 条 指令 实际 能 发 射 的 时 刻 范 围 一 般 远 远 小 


于 1 到 7(B8) 约束 每 条 指令 的 发 射 周期 范围 能 够 大 幅 降低 整数 
线性 规划 求解 时 的 搜索 空间 。 将 程序 依赖 图 看 做 一 个 AOE 
网 ， 容 易 求 出 每 条 指令 i 的 最 早 发 射 时 间 与 最 晚 发 射 时 间 。 
如 果 不 考 虑 机 器 资源 ， 显 然 指 令 只 能 在 最 早 发 射 时 间 与 最 晚 
发 射 时 间 之 间 被 发 射 ， 但 由 于 分 簇 可 能 插入 簇 间 传 输 指令 ， 
以 及 DSP 的 发 射 数 限制 ， 实 际 上 指令 合法 的 发 射 时 刻 可 能 
会 大 于 该 最 晚 发 射 时 间 ， 因 此 实际 上 使 用 如 下 方法 保守 的 估 
计 指 令 发 射 时 刻 的 区 间 : 
a) 对 于 任意 基本 块 ， 裔 历 不 含 簇 间 传 输 指令 的 程序 依 
， 计 算 最 早 发 射 时 刻 : 


赖 图 


0 if pred(i) = Ø 
ei) = max (CtG) *lat;;) otherwise 
jepred (i 


其 中 pred) 分 别 表示 指令 i 的 在 图 中 的 所 有 直接 间接 前 驱 ， 
laii 表示 指令 i,j 之 间 的 延迟 。 

b) 遍历 包含 复 间 传输 指令 的 依赖 图 ， 使 用 步骤 a) 中 的 
公式 ， 以 及 结果 ， 计 算 每 条 艇 间 传 输 指令 的 最 早 发 射 时 刻 。 
c) 计算 指令 发 射 时 刻 的 下 界 : 


Ibi) = max (erc, se | 
d) 遍历 不 含 簇 间 传输 指令 的 程序 依赖 图 ， 设 当前 处 理 

的 基本 块 为 8， 计 算 指 令 的 最 晚 发 射 时 刻 : 

T(B) if succ(i) = Ø 


min (/t(j) —/at;;) otherwise 
jesucc(i) 


ti) = 


其 中 succi 表示 指令 的 所 有 直接 间接 后 继 。 此 处 的 最 晚 发 
射 时 刻 4 与 AOE 网 络 中 的 定义 并 不 一 样 ， 实 际 上 是 反方 向 
计算 的 最 早 发 射 时 刻 。 
e) 遍历 包含 簇 间 传 输 指令 的 依赖 图 ， 使 用 步骤 由 中 的 
公式 ， 以 及 结果 计算 每 条 簇 间 传 输 指令 的 最 晚 发 射 时 间 。 
f) 计算 指令 发 射 时 刻 的 上 界 : 


w=min 10.7(B) -| 


对 于 任意 基本 块 3 ， 限 制 非 饼 间 传输 指令 发 射 在 估计 的 
区 间 内 的 约束 为 


| succ(i) | 
N 


Ib(i) € cycle(B,i) € ub(i) (26) 
秘闻 传输 指令 x 的 发 射 时 刻 上 界 约束 与 其 他 指令 的 相同 ， 
但 由 于 簇 间 传 输 指令 x 不 一 定 被 调度 ，cycie(B,’) 可 能 为 0, 
所 以 ， 其 发 射 时 刻 上 界 约束 为 


Ib(i) € cycle(B, x) - T(B)( ^ occur(B, x)) 
6 ”实验 评估 


本 文选 用 HXDSP1042 作为 算法 的 验证 平台 ， 
HXDSP1042 一 款 典 型 的 分 徐 VLIW DSP， 由 中 国电 子 科技 
集团 第 38 研究 所 研发 ， 支 持 16 发 射 ， 有 4 个 徐 ，13 级 流水 
线 ， 各 艇 之 间 通 过 总 线 通 信 , 已 经 被 大 量 运用 在 雷达 信号 处 
理 上 。 整 数 线性 规划 求解 是 另 一 个 复杂 的 话题 ， 超 出 本 文 讨 
论 的 范围 ， 本 文 使 用 求解 器 gurobi22 来 实现 本 文 的 算法 。 测 
试 程序 选择 的 是 DSPStoneP23l， 编 译 时 开启 O2 优化 ， 仅 替换 
站 令 分 簇 与 指令 调度 优化 ， 并 实现 了 几 种 统一 分 簇 与 调度 的 


Q7) 
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录用 定稿 A m $: 基于 整数 线性 


方法 作为 参考 ， 这 些 算 法 对 测试 程序 中 每 个 基本 块 分 别 进行 ， 
而 本 文 的 方法 实现 在 整个 函数 上 ， 测 试 程序 在 HXDSP1042 
的 仿真 器 上 执行 ， 结 果 显 示 了 本 文 的 方法 相 比 效果 最 好 的 近 
似 算法 LUCAS 在 不 同 的 测试 程序 上 有 20% 到 35% 的 性 能 提 
。 图 9 显示 了 几 种 方法 在 DSPStone 
归 一 化 执行 时 间 ， 使 用 UAS 算法 的 结果 作为 基准 1。 其 中 
E c D Lu M 


LSTC 表示 文献 [9] 提 出 的 算法 ，ILP 表示 本 文 的 方法 。 
19] EZZ) UAS 
"M: 多 Ends 
Zal 六 2 == ucAs 
pi 乡 X A | 9 mm LP 
$ "B À | 
z0] GN | R 
E | 级 INSI 
Tul PNA AM ; 
E | ANO EE 
= CUN Ra B 
921 AN N z 
ZN% ANNE 
NS: ANNE: 
umm" ed 
图 9 性 能 测试 结 


Fig.9 Benchmark results 
尽管 整数 线性 规划 是 NP 问题 ， 但 对 于 一 般 程序 中 的 函 
数 ， 使 用 分 支 定 界 法 往往 能 较 快 的 求解 出 最 优 解 。 本 文 从 在 
GSLU4, FANNÜUS. Zlib, DSPStone 中 随机 选择 了 共 4000 个 
函数 ， 在 一 台 intel Core 15-8300H 的 笔记 本 电脑 上 测试 了 本 
文 的 算法 ， 结 果 显 示 ， 其 中 约 81% 的 函数 能 在 0.5s 内 得 到 结 
果 ， 如 表 2 所 示 。 


表 2 算法 耗 时 
Tab.2 Time used by algorithm 
耗 时 范围 最 少 指令 数 最 多 指令 数 平均 指令 数 函数 个 数 占 总 数 比 例 


<0.02s 4 7 5.2 361 9.03% 
0.02-0.1s 4 34 16.9 648 16.20% 
0.1-0.5s 15 139 472 2237 55.999 
0.5-2.5s 27 213 92.1 354 8.85% 
2.5-10s 20 563 159.5 296 7.40% 
>10s 74 1588 410.6 104 2.60% 
7 结束语 
本 文 使 用 整数 线性 规划 方法 ， 实 现 了 分 簇 VLIW DSP 上 
的 指令 分 簇 与 指令 调度 ， 并 在 HXDSP1042 进行 了 实验 ， 结 


果 表 明 本 文 方法 能 有 效 提 高 程序 的 性 能 ， 且 算法 的 运行 时 间 
是 可 以 接受 的 ， 尽 管 与 近似 算法 还 有 一 定 差距 ， 但 已 经 具备 
了 相当 的 实用 性 。 一 个 不 足 之 处 在 于 对 函数 执行 时 间 的 估计 
过 于 粗糙 ， 这 个 问题 可 以 通过 利用 编译 器 高 层 的 信息 ， 或 采 
用 深度 方法 预测 R99 分 支 概率 得 到 改善 。 男 一 个 问题 是 本 文 
的 方法 的 时 间 开 销 还 有 优化 空间 ， 其 原因 在 于 使 用 了 一 个 大 
的 整数 线性 规划 模型 来 表示 所 有 指令 的 分 艇 与 调度 ， 求 解 时 
则 开销 比较 大 ， 但 实际 上 往往 存在 许多 指令 的 分 艇 和 调度 与 
另外 许多 指令 无 关 。 因 此 下 一 步 的 研究 将 探索 如 何 将 函数 分 
割 为 多 个 部 分 ， 对 每 个 部 分 分 别 建 模 求解 并 保证 整体 结果 最 
包 ， 从 而 进一步 提高 求解 速度 。 
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